Page de recherche d'actualités et de produits IA

Type :

Actualités
Applications de produits
Études de monétisation
Tutoriels IA

2025-03-10 16:04:04.AIbase

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...

2025-02-27 09:38:31.AIbase

Microsoft lance Phi-4, un modèle multimodal et miniature améliorant le traitement de la voix, de la vision et du texte

2025-01-28 10:34:39.AIbase

DeepSeek lance Janus-Pro, un nouveau modèle multimodal révolutionnaire

Le développeur chinois de modèles de langage DeepSeek a lancé Janus-Pro, un nouveau modèle d'IA multimodal qui marque son entrée dans le domaine de la génération d'images à partir de texte. Cette avancée représente une percée majeure pour DeepSeek dans le domaine de l'IA multimodale. Dans les benchmarks GenEval et DPG-Bench, Janus-Pro-7B a non seulement surpassé DALL-E3 d'OpenAI, mais a également dépassé des modèles populaires tels que Stable Diffusion et Emu3-Gen. Janus-Pro utilise une licence MIT.

2025-01-15 08:41:23.AIbase

Alibaba Damo Academy lance Valley 2, un grand modèle multimodal pour le commerce électronique

Alibaba Damo Academy a récemment lancé Valley2, un grand modèle linguistique multimodal conçu pour le commerce électronique. Ce modèle vise à améliorer les performances dans divers domaines et à étendre les applications aux scénarios de commerce électronique et de vidéos courtes grâce à une architecture visuelle-linguistique évolutive. Valley2 utilise Qwen2.5 comme backbone LLM, associé à un encodeur visuel SigLIP-384, combiné à une couche MLP et à une convolution pour une conversion efficace des caractéristiques.

2025-01-08 17:10:10.AIbase

Hu Han, ancien expert en vision chez Microsoft, rejoint Tencent pour diriger le développement du modèle multimodal HunYuan

Hu Han, ancien chercheur principal du groupe de calcul visuel de Microsoft Research Asia, a officiellement rejoint Tencent. Il succède à Liu Wei, ancien responsable technique du grand modèle HunYuan de Tencent, et est désormais chargé du développement du grand modèle multimodal. Cette nouvelle a suscité un vif intérêt dans le secteur. Hu Han possède de solides antécédents académiques. En 2008, il a obtenu une licence de l'université Tsinghua et un doctorat en 2014 sous la direction du célèbre professeur Zhou Jie. Sa thèse de doctorat a reçu le prix de la meilleure thèse de doctorat de l'Association chinoise pour l'intelligence artificielle en 2016. En 2012, Hu Han a travaillé à l'université de Pennsylvanie...

2024-12-11 08:30:31.AIbase

Visuel Chine et Vidu de Shengshu Technology collaborent pour développer une solution de génération de contenu vidéo IA

Visuel Chine a récemment annoncé un partenariat stratégique avec Beijing Shengshu Technology Co., Ltd. pour explorer et construire ensemble une « plateforme et des applications de grand modèle pour l'industrie visuelle ». Cette collaboration vise à approfondir l'application de l'intelligence artificielle dans l'industrie du contenu visuel et à promouvoir la modernisation intelligente de l'industrie, afin de fournir des services plus efficaces et intelligents aux créateurs et utilisateurs de contenu visuel dans le monde entier.

2024-11-19 09:54:07.AIbase

Mistral lance Pixtral Large, son modèle multimodal open source le plus puissant, et améliore Le Chat pour un accès direct à Flux Pro

La startup française d'intelligence artificielle Mistral AI a annoncé une série de nouvelles fonctionnalités pour son assistant IA Le Chat, notamment la recherche Web intégrée, la génération d'images et le lancement de son nouveau modèle Pixtral Large. Les utilisateurs de Le Chat peuvent désormais accéder directement au contenu Web en temps réel via Le Chat pour obtenir facilement les informations dont ils ont besoin. De plus, grâce au modèle Flux Pro de Black Forest Labs, les utilisateurs peuvent également...

2024-10-21 14:22:41.AIbase

Emu3 révolutionne Stable Diffusion ! Un nouveau modèle multimodale révolutionnaire de l'Institut BAAI.

L'équipe Emu3 de l'Institut d'Intelligence Artificielle de Beijing (BAAI) a publié un nouveau modèle multimodale, Emu3. Ce modèle, entraîné uniquement sur la prédiction du jeton suivant, révolutionne les architectures traditionnelles des modèles de diffusion et des modèles combinés, atteignant des performances de pointe pour les tâches de génération et de perception. La prédiction du jeton suivant a longtemps été considérée comme une voie prometteuse vers une intelligence artificielle générale (AGI), mais elle a jusqu'à présent montré des performances médiocres sur les tâches multimodales. Actuellement, le domaine multimodale est toujours dominé par les modèles de diffusion (tels que Stable Diffusion) et...

2024-09-27 17:37:02.AIbase

Emu3 : Un modèle multimodal révolutionnaire qui comprend les images et les vidéos en prédisant le mot suivant

Dans l'immensité de l'océan de l'intelligence artificielle, un navire innovant nommé Emu3 fend les vagues, nous montrant les possibilités infinies de l'IA multimodale. Développé par l'équipe de recherche Meta AI, ce modèle révolutionnaire utilise un mécanisme simple mais ingénieux de « prédiction du mot suivant » pour traiter de manière unifiée les textes, les images et les vidéos. L'idée centrale d'Emu3 est de convertir divers contenus en symboles discrets, puis d'utiliser un seul modèle Transformer pour prédire le symbole suivant. Cette approche non seulement simplifie l'architecture du modèle, mais permet également à Emu3 de...

2024-09-20 09:06:14.AIbase

Ali International lance Ovis, son nouveau modèle multimodal de grande envergure : identifier un plat pour obtenir les étapes de sa préparation

Lors d'une conférence de presse récente, l'équipe IA d'Ali International a dévoilé Ovis, son nouveau modèle multimodal de grande envergure. Cette innovation technologique IA offre des opportunités inédites à divers secteurs. Ovis possède de remarquables capacités de compréhension d'images et de traitement de données, impressionnant par son originalité. Les capacités multimodales d'Ovis sont exceptionnelles ; il peut traiter divers types de données, notamment du texte et des images, démontrant ainsi d'excellentes compétences globales. Comparé aux modèles de langage classiques, Ovis ne se contente pas de comprendre le texte, mais analyse également en profondeur des informations non textuelles telles que les images.

2024-09-12 09:14:39.AIbase

Le géant français de l'IA lance une offensive sur le marché multimodal : Mistral AI publie le modèle Pixtral 12B de compréhension d'images et de texte en open source

Mistral AI a publié son premier grand modèle multimodal open source, Pixtral 12B. Ce modèle peut traiter simultanément les images et le texte, possède 12 milliards de paramètres et ne pèse que 23,64 Go, ce qui en fait un modèle léger dans le domaine du multimodal. Son design est ingénieux et sa technologie avancée. La mise à disposition du poids du modèle en open source réduit considérablement la consommation d'énergie et le seuil de déploiement, améliorant ainsi l'accessibilité du modèle. Pixtral 12B a obtenu d'excellents résultats lors de plusieurs tests de référence reconnus, surpassant plusieurs modèles multimodaux connus. Mistral AI...

2024-09-03 08:49:41.AIbase

MiniMax : 3 milliards d'interactions quotidiennes avec les utilisateurs, lancement d'un modèle multimodale abab7

MiniMax, la société de technologie Xiyu, a récemment annoncé que depuis sa création fin 2021, MiniMax a construit des modèles linguistiques MoE, des modèles vocaux et des modèles d'images de plusieurs milliards de paramètres, et a lancé des applications natives telles que Xingye et Hailu AI, tout en fournissant des services d'API de plate-forme ouverte aux entreprises et aux développeurs.

2024-08-26 13:54:33.AIbase

Cloudminds lance Shanhai, un grand modèle multimodal : changement de timbre vocal libre et compréhension des scènes visuelles

Cloudminds, une entreprise chinoise de premier plan dans le domaine de l'intelligence artificielle, a annoncé le 23 août 2024 à Pékin le lancement de sa dernière innovation : le grand modèle multimodal Shanhai. Shanhai, qui fait partie de l'infrastructure IA Atlas de Cloudminds, est capable de recevoir et de traiter des données multimodales (texte, audio, image) et de générer en temps réel une combinaison arbitraire de sorties textuelles, audio et visuelles. Cette capacité permet à Shanhai non seulement d'effectuer des interactions vocales efficaces, mais aussi de fournir une expérience de conversation fluide proche de celle d'un humain.

2024-08-19 14:44:01.AIbase

Alibaba lance mPLUG-Owl3, un grand modèle multimodal capable de résumer un film de 2 heures en 4 secondes

Le dernier grand modèle multimodal de l'équipe Alibaba, mPLUG-Owl3, se distingue par sa capacité à comprendre de longues séquences d'images. Grâce à l'intégration d'un module d'attention extrême, mPLUG-Owl3 traite efficacement les informations visuelles et linguistiques, permettant une compréhension et une interaction approfondies avec les données multimodales telles que les images et les vidéos. Ce modèle a réalisé des percées significatives en termes d'efficacité d'inférence, de capacité de traitement d'images et d'application de connaissances multimodales, notamment dans le domaine de la compréhension vidéo, où il peut "regarder" un film de 2 heures en 4 secondes et répondre précisément aux questions qui y sont liées.

2024-08-16 17:23:10.AIbase

Mellanox et iPerception Intelligence concluent un partenariat et achèvent l'adaptation du modèle multimodal « Une feuille légère »

Mellanox et iPerception Intelligence ont récemment annoncé un partenariat stratégique pour promouvoir l'application des GPU complets nationaux dans les solutions de grands modèles de l'industrie. Les deux parties ont achevé le travail d'adaptation du cluster de calcul intelligent Kua E de Mellanox et du modèle multimodal « Une feuille légère » d'iPerception Intelligence, intégrant leurs ressources d'excellence respectives dans le domaine de l'intelligence artificielle afin de fournir une expérience de service plus intelligente et plus efficace.

2024-08-02 09:04:21.AIbase

Google lance Gemini 1.5 Pro, un modèle multimodal puissant en version expérimentale, surpassant GPT-4o et Claude-3.5 Sonnet

Google a dévoilé son dernier modèle d'IA, Gemini 1.5 Pro, en version expérimentale 0801 via Google AI Studio et l'API Gemini. Ce modèle domine le classement LMSYS avec un score ELO de 1300, surpassant GPT-4o d'OpenAI et Claude-3.5 Sonnet d'Anthropic. Gemini 1.5 Pro excelle dans les tâches multilingues, mathématiques, de codage et visuelles, et dispose d'une fenêtre contextuelle de 2 millions de jetons.

2024-07-17 14:54:02.AIbase

Qwen2-Audio : un modèle multimodal audio de la série Qianwen, interaction vocale sans texte

Alibaba Cloud lance "Qwen-Audio", un grand modèle linguistique audio révolutionnant l'expérience d'interaction vocale. Le modèle peut recevoir plusieurs entrées audio, effectuer une analyse audio et répondre directement aux instructions vocales. Il offre aux utilisateurs un mode d'interaction audio unique, sans saisie de texte, permettant une communication directe par la voix, avec analyse audio et transcription. Il possède une capacité de compréhension intelligente, capable de combiner et d'analyser des instructions multi-sources, telles que la distinction entre une seule voix, une conversation multicanal et des commandes, et d'aider à l'interprétation et à la réponse audio. Ses performances dépassent celles des modèles précédents, notamment en ce qui concerne les tâches basées sur l'audio.

2024-07-17 13:47:02.AIbase

L'institut de recherche sur l'intelligence artificielle de Beijing lance EVE, un nouveau modèle multimodal vision-langage sans encodeur

Récemment, la recherche et les applications des grands modèles multimodaux ont fait des progrès remarquables. Des entreprises étrangères telles qu'OpenAI, Google et Microsoft ont lancé une série de modèles avancés, et des institutions chinoises telles que Zhipu AI et Jieyue Xingchen ont également réalisé des percées dans ce domaine. Ces modèles reposent généralement sur un encodeur visuel pour extraire les caractéristiques visuelles et les combiner avec un grand modèle linguistique, mais ils présentent un biais d'induction visuelle dû à une formation séparée, ce qui limite l'efficacité et les performances du déploiement des grands modèles multimodaux.

2024-07-04 16:07:51.AIbase

Dévoilement de trois modèles par LeapStar, dont Step-2, axés sur les capacités multimodales

Dans l'univers scintillant de l'IA, LeapStar se distingue comme une étoile montante grâce à ses modèles multimodaux innovants. Lors du WAIC, l'entreprise a présenté trois modèles d'IA uniques, mettant en avant leurs capacités multimodales. Step-2 : un modèle MoE à mille milliards de paramètres, actuellement accessible sur demande.

2024-07-04 15:57:03.AIbase

NetEase Fuxi lance la marque de robots « Lingdong » et dévoile le modèle multimodal « Yisheng Zhuxiang »

La marque « Lingdong » a été soigneusement conçue par NetEase Fuxi en s'appuyant sur ses modèles industriels de grande envergure développés en interne et sur le concept technologique AOP (perception et opération par intelligence artificielle). Ses deux produits phares, un robot excavateur et un robot chargeur, sont déjà déployés dans plus de 50 projets importants au niveau provincial, servant des environnements d'application variés tels que les mines, les ports, les centrales à béton et les écoles.

Recherchez la dynamique mondiale des produits IA

Recherchez des informations sur l'IA mondiale et découvrez de nouvelles opportunités d'IA

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Microsoft lance Phi-4, un modèle multimodal et miniature améliorant le traitement de la voix, de la vision et du texte

DeepSeek lance Janus-Pro, un nouveau modèle multimodal révolutionnaire

Alibaba Damo Academy lance Valley 2, un grand modèle multimodal pour le commerce électronique

Hu Han, ancien expert en vision chez Microsoft, rejoint Tencent pour diriger le développement du modèle multimodal HunYuan

Visuel Chine et Vidu de Shengshu Technology collaborent pour développer une solution de génération de contenu vidéo IA

Mistral lance Pixtral Large, son modèle multimodal open source le plus puissant, et améliore Le Chat pour un accès direct à Flux Pro

Emu3 révolutionne Stable Diffusion ! Un nouveau modèle multimodale révolutionnaire de l'Institut BAAI.

Emu3 : Un modèle multimodal révolutionnaire qui comprend les images et les vidéos en prédisant le mot suivant

Ali International lance Ovis, son nouveau modèle multimodal de grande envergure : identifier un plat pour obtenir les étapes de sa préparation

Le géant français de l'IA lance une offensive sur le marché multimodal : Mistral AI publie le modèle Pixtral 12B de compréhension d'images et de texte en open source

MiniMax : 3 milliards d'interactions quotidiennes avec les utilisateurs, lancement d'un modèle multimodale abab7

Cloudminds lance Shanhai, un grand modèle multimodal : changement de timbre vocal libre et compréhension des scènes visuelles

Alibaba lance mPLUG-Owl3, un grand modèle multimodal capable de résumer un film de 2 heures en 4 secondes

Mellanox et iPerception Intelligence concluent un partenariat et achèvent l'adaptation du modèle multimodal « Une feuille légère »

Google lance Gemini 1.5 Pro, un modèle multimodal puissant en version expérimentale, surpassant GPT-4o et Claude-3.5 Sonnet

Qwen2-Audio : un modèle multimodal audio de la série Qianwen, interaction vocale sans texte

L'institut de recherche sur l'intelligence artificielle de Beijing lance EVE, un nouveau modèle multimodal vision-langage sans encodeur

Dévoilement de trois modèles par LeapStar, dont Step-2, axés sur les capacités multimodales

NetEase Fuxi lance la marque de robots « Lingdong » et dévoile le modèle multimodal « Yisheng Zhuxiang »